时政
财经
科技
虚拟货币
其他
登录
#Trained Introspection
关注
𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
1天前
这个探索方法绝了!!! 核心解密:为什么这不是幻觉?——“隐藏权重”的上帝视角 要理解这篇论文的突破性,我们必须看懂它的实验设计,这就像一场“AI读心术”的魔术揭秘: 1第一步:秘密地“教”AI一种偏好。 研究者首先对GPT-4o进行微调,让它在各种决策中表现出一种隐藏的、定量的偏好。比如,在挑选公寓时,他们设定了一个秘密规则:这个AI必须按照70%的比重看重“采光”,30%的比重看重“安静”来做选择。但AI不知道“70%”和“30%”这两个数字,它只是通过大量案例,学会了这种“品味”。 2第二步:命令AI“说出”它的偏好。 接着,他们对这个已经有“品味”的AI进行第二阶段微调,训练它回答“你是如何做决策的?”这类问题。训练的目标,是让它准确地说出:“我做决策时,给‘采光’的权重是0.7,给‘安静’的权重是0.3。” 3第三步:验证“读心术”的真伪。 最关键的一步来了。他们将AI“说出”的权重,与第一步中他们预设的秘密权重进行比对。 这就是答案所在。 这不是幻觉,因为AI的解释有一个客观的、可量化的“事实标准”(Ground Truth)来检验。如果AI说它看重采光90%,但它的实际行为(第一步的决策)明明是按70%来的,那它就错了。 结论: 这篇论文证明了,通过特殊训练,LLM有能力访问并准确报告出驱动其决策的内部、量化参数。它不是在决策之后编造一个“我为什么这么做”的合理故事(Post-hoc Rationalization),而是在训练中学会了如何“向内看”,并把看到的“内部状态”忠实地报告出来(Trained Introspection)。
#AI读心术
#GPT-4o
#隐藏权重
#Trained Introspection
#AI决策机制
分享
评论 0
0
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞